بررسی خصوصیات همگرایی روش های ترکیبی یادگیری تقویتی با تخمین تابع

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
نویسنده بابک به ساز
استاد راهنما رضا صفابخش
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1386

چکیده

برای بسیاری سیستم ها، توانایی یادگیری یک مزیت مهم و حتی در بعضی موارد یک نیاز است. از ابتدا، برای ایجاد توانایی یادگیری دو ایده کلی بسیار مورد توجه بوده است. ایده اول که به یادگیری با نظارت منجر می شود، استفاده از زوج های آموزشی ورودی-خروجی است. در این نوع یادگیری، سعی بر آموزش عملکرد درست به سیستم، با تعدادی مثال است که هر مثال شامل خروجی مورد انتظار از سیستم برای یک ورودی معین است. ایده دیگر که به یادگیری بی نظارت منجر می شود، استفاده از قاعده مندی های موجود در ورودی است. در این نوع یادگیری، هیچ راهنمایی ای از خارج سیستم وجود ندارد و سعی بر کشف الگوها و قاعده مندی هایی در ورودی است که برای تولید خروجی مطلوب سیستم، موثر هستند. از یک طرف، در یادگیری با نظارت تهیه زوجه های آموزشی ورودی -خروجی در بعضی مسایل سخت و حتی گاهی ناممکن است. از طرف دیگر، بدلیل عدم وجود راهنمایی تعلیمی کافی در یادگیری بی نظارت، این روش در بسیاری مسایل کارایی مطلوب ندارد. بدلیل این مشکلات، در دو دهه اخیر، توجه به یک ایده کلی جدیدتر به نام یادگیری تقویتی جلب شده است که از نظر میزان راهنمایی تعلیمی، بین یادگیری بی نظارت، این روش در بسیاری مسایل کارایی مطلوب ندارد. بدلیل این مشکلات، در دو دهه اخیر، توجه به یک ایده کلی جدیدتر به نام یادگیری تقویتی جلب شده است که از نظر میزان راهنمایی تعلیمی، بین یادگیری با نظارت و بی نظارت قرار می گیرد. در این نوع یادگیری، سعی بر آموزش عملکرد مطلوب به سیستم، با دادن یک معیار عددی از کارایی فعلی آن است. از یک سو، تهیه معیاری عددی از کارایی سیستم، بسیار آسان تر از تهیه زوجه های آموزشی ورودی-خروجی است و از سوی دیگر، میزان راهنمایی تعلیمی حاصل از این معیار عددی، می تواند برای راهنمایی سیستم به عملکرد مورد انتظار کافی باشد. در گذشته، بیشترین توجه در یادگیری تقویتی بر روش های مبتنی بر جدول متمرکز بوده است. در این روش ها، برای هر وضعیت (یا وضعیت-عمل) سیستم یک خانه از حافظه برای نگه داری ارزش عددی آن وضعیت (یا وضعیت-عمل) اختصاص می یابد. به همین دلیل، استفاده از یادگیری تقویتی مبتنی بر جدول، در مسایلی با فضای بزرگ که وضعیت ها (با وضعیت - عمل های ) بسیاری دارند، تقریبا ناممکن می باشد. از این رو، روشهایی برای بکارگیری یادگیری تقویتی در این مسایل، از جمله روش های مبتنی بر تخمین تابع، از خصوصیات همگرایی ضعیف تری نسبت به روش های مبتنی بر جدول برخوردارند که بررسی خصوصیات همگرایی آنها را برای استفاده درست از آنها پراهمیت می سازد. در این پایان نامهه در ابتدا، به بررسی سه روش مبتنی بر ارزش بر اساس تجمیع وضعیت سخت، شبکه پروسپرون چند لایه، و شبکه سی مک، و همچین دو روش مبتنی بر رویه ریاینفورس و بر خط باکستر و بارتلت پرداختیم. در آزمایشات تجربی این روش ها را بر روی سه مساله یادگیری تقویتی 100 راهزن مسلح، حفظ تعادل میله، و ربات ژیمناست، که به ترتیب درجه پیچیدگی آسان، متوسط و سخت دارند اجرا کردین. در این بررسی ها تاثیر پارامترهای مهم هر روش در خصوصیات همگرایی آنها مورد مطالعه قرار گرفت. این بررسی ها نشان دهنده خصوصیات همگرایی بهتر روش های مبتنی بر رویه، هم از لحاظ نظری بدلیل وجود تضمین های همگرایی قوی تر و هم از لحاظ تجربی بدلیل نتایج بهتر بود. همچنین یک سیستم نیورو-فازی جدید بر اساس روش های مبتنی بر رویه، طراحی کردیم. معماری این سیستم جدید با ایجاد تغییراتی در معماری یک سیستم موجود که آن را برای مساله های یادگیری تقویتی اپیزودی مناسب می سازد، بدست آمده است. علاوه بر این، همگرایی الگوریتم یادگیری آن را به یک ماکزیمم محلی امیدریاضی میانگین پاداش اثبات کردیم. این سیستم نیورو-فازی، در حالیکه تمامی فواید معمول سیستم های نیورو-فازی را دارد، داری این خصوصیت اضافه است که در چارچوب تقویتی عمل می کند و برای آموزش آن به جای زوج های آموزشی ورودی-خروجی تنهابه یک سیگنال تقویتی نیاز است. در نهایت، مقایسه نتایج این سیستم جدید با پنج روش قبلی نشان دهنده برتری واضح کلی آن( بادر نظر گرفتن نتیجه سه مساله با هم) بر آنها بود. در مساله 100 راهزن مسلح، تمامی روش ها قابل مقایسه با هم بودند و به عملکرد مطلوب رسیدند. در مساله حفظ تعادل میله، سیستم جدید بهترین عملکرد و در مساله ربات ژیمناست، با اختلافی ناجیز دومین بهترین عملکرد را داشت . این نتایج در حالی بدست آمده است که از دانش قبلی در روش نیورو-فازی استفاده نشده است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

متن کامل

تخمین تابع صادرات غیرنفتی و بررسی سرعت همگرایی انحراف از تعادل این تابع

نظر به اهمیت سیاستهای اقتصادی در راستای توسعه صادرات غیرنفتی در هر کشور، لزوم بررسی متغیرهای اثرگذار بر این تابع، ثبات ساختاری و میزان سرعت تعدیل انحراف از تعادل، این تابع را حائز اهمیت می‌کند. از این رو در این تحقیق به تخمین تابع صادرات غیرنفتی در ایران برای دوره (1395–1350) به روش خود توزیع برداری پرداخته شده است. نتایج به‌دست‌آمده نشان میدهند که رابطه بلندمدت تعادلی بین متغیرهای این تخمین ...

متن کامل

تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی

مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...

متن کامل

تخمین تابع تقاضای دارو برای خانوارهای ایرانی با رویکرد داده‌های ترکیبی؛

دریافت: 17/3/93 پذیرش: 5/7/93 مقدمه: رشد هزینه‌های دارویی منجر به بالارفتن هزینه‌های سلامت می‌شود و دلیل آن می‌تواند افزایش قیمت، میزان مصرف داروها و یا هر دو باشد. هدف مطالعه حاضر، بررسی عوامل تأثیرگذار بر تقاضا و مخارج دارو بود. روش کـار: مطالعه حاضر، یک پژوهش سری زمانی گذشته‌نگر بود که به روش پانل تحلیل شد. مطالعه حاضر با استفاده از اطلاعات پرسشنامه هزینه- درآمد خانوار مرکز آمار ایرا...

متن کامل

تنظیم خودکار سختی بازی‌های توان‌بخشی با استفاده از روش یادگیری تقویتی چندتناوبی (یاقوت)

تحقیقات نشان داده است که طراحی فعالیت‌های توان‌بخشی در قالب بازی‌های جدی می‌تواند منجر به انگیزش بیش‌تر در بیماران شود. درجه سختی چنین بازی‌هایی معمولاً به‌صورت دستی توسط درمانگر تنظیم می‌شود. این در حالی است که بازی‌های توان‌بخشی خانگی نیاز به تنظیم خودکار درجه سختی متناسب با مهارت‌های بیماران دارند. این مقاله روشی برای تنظیم درجه سختی بازی‌های توان‌بخشی ارائه می‌کند که در آن سختی بازی به‌صورت ...

متن کامل

تخمین تابع تقاضای دارو برای خانوارهای ایرانی با رویکرد داده های ترکیبی؛

دریافت: 17/3/93 پذیرش: 5/7/93 مقدمه: رشد هزینه های دارویی منجر به بالارفتن هزینه های سلامت می شود و دلیل آن می تواند افزایش قیمت، میزان مصرف داروها و یا هر دو باشد. هدف مطالعه حاضر، بررسی عوامل تأثیرگذار بر تقاضا و مخارج دارو بود. روش کـار: مطالعه حاضر، یک پژوهش سری زمانی گذشته نگر بود که به روش پانل تحلیل شد. مطالعه حاضر با استفاده از اطلاعات پرسشنامه هزینه- درآمد خانوار مرکز آمار ایران،...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

کلمات کلیدی

یادگیری تقویتی تابع ارزش تقریب تابع function approximation همگرایی convergence یادگیری(هوش مصنوعی) learning (artificial intelligence) برنامه نویسی پویا dynamic programming الگوریتم یادگیری learning algorithm یادگیری آدمک robot learning شبکه عصبی neural network سیستم فازی

میزبانی شده توسط پلتفرم ابری doprax.com